MetaAI在使用Unit decoder得到轉譯後的語音單元(Unit)後,送入HiFi-GAN Vocoder單元轉換為語音聲波訊號。MetaAI使用兩種HiFi-GAN聲碼器,其中一種HiFi-GAN聲碼器(Kong et al., 2020)將頻譜圖轉換為 TTS 波形以及直接將語音到頻譜圖。另一種是基於單元的HiFi-GAN聲碼器(Polyak 等人,2021),將離散語音單位轉換為聲波波形。而兩個聲碼器是分開訓練的。
HiFi-GAN 由一個生成器和兩個判別器組成:多尺度和多周期判別器(Multi-Scale Discriminator and Multi-Period Discriminator)。生成器和判別器進行對抗性訓練,並附加兩個額外損失(Loss)來提高訓練穩定性和模型性能。
生成器是一個完全的卷積神經網路,使用頻譜圖作為輸入,並透過轉置卷積對其進行上採樣(Upsampling),直到輸出序列的長度與原始波形的時間相匹配。每個轉置卷積後面都接著一個多受域融合(multi-receptive field fusion, MRF, 文獻)模組。
MPD 是子判別器的混合體,每個子判別器僅接受輸入音訊的相同間隔樣本,旨在透過查看輸入音訊的不同部分,來捕捉其中的隱式結構。每個子判別器都具有ReLU啟動函數的卷積層堆疊。隨後將權重歸一化(Salimansand Kingma,2016)應用於MPD。透過將輸入音訊重塑為2D 資料而不是對音訊進行週期性訊號取樣,可以將MPD 的梯度傳遞到輸入音訊的所有時間步長。
由於MP 中的每個子判別器不接受不相交的樣本,因此我們添加MSD 來連續評估音頻序列。MS 的架構與Mel-GAN (Kumaretal.,2019) 的架構不同。透過減少步長和添加更多層來增加判別器大小。其中MPD 對原始波形的不相交樣本進行操作,而 MSD 對平滑波形進行操作。
MetaAI引用HiFi-GAN可以有效地合成高品質的語音音訊,提高合成音訊的品質及合成速度。根據目標規格靈活選擇生成器配置,而無需對判別器進行耗時的超參數訓練。而HiFi-GAN也是開源的可以自行使用。